现实世界的面部表达识别(FER)数据集遭受吵闹的注释,由于众包,表达式的歧义,注释者的主观性和类间的相似性。但是,最近的深层网络具有强大的能力,可以记住嘈杂的注释导致腐蚀功能嵌入和泛化不良的能力。为了处理嘈杂的注释,我们提出了一个动态FER学习框架(DNFER),其中根据训练过程中的动态类特定阈值选择了干净的样品。具体而言,DNFER基于使用选定的干净样品和使用所有样品的无监督培训的监督培训。在训练过程中,每个微型批次的平均后类概率被用作动态类特异性阈值,以选择干净的样品进行监督训练。该阈值与噪声率无关,与其他方法不同,不需要任何干净的数据。此外,要从所有样品中学习,使用无监督的一致性损失对齐弱调节图像和强大图像之间的后验分布。我们证明了DNFER在合成和实际噪声注释的FER数据集(如RaFDB,Ferplus,Sfew和altimpnet)上的鲁棒性。
translated by 谷歌翻译
自动情感识别在许多领域都有应用,例如教育,游戏,软件开发,汽车,医疗保健等。但是,在野外数据集上实现可观的绩效是无琐的任务。野外数据集虽然比合成数据集更好地代表了现实世界中的情况,但前者遇到了不完整标签的问题。受到半监督学习的启发,在本文中,我们在第四次情感行为分析(ABAW)2022竞赛中介绍了提交的多任务学习挑战。在这项挑战中考虑的三个任务是价估计(VA)估计,表达式分为6个基本(愤怒,厌恶,恐惧,幸福,悲伤,惊喜),中立和“其他”类别和12个行动单位(au)编号au - \ {1,2,4,6,7,10,12,15,15,23,24,25,26 \}。我们的方法半监督的多任务面部情感情感识别标题为\ textbf {ss-mfar}使用一个深层残留网络,每个任务都具有特定任务分类器以及每个表达式类别的自适应阈值,每个表达式类别和半监督学习。源代码可从https://github.com/1980x/abaw202​​22dmacs获得。
translated by 谷歌翻译
如今,瑜伽因现代生活方式的压力增加而受到全世界的关注,并且学习瑜伽有很多方法或资源。瑜伽一词意味着思想和身体之间的深厚联系。今天,有大量的医学和科学证据表明,我们大脑活动的基本面,我们的化学甚至可以通过练习不同的瑜伽系统来改变我们的化学。 Suryanamaskar,也被称为“向太阳致敬”,是一种瑜伽练习,结合了八种不同的形式和12个体式(4个Asana重复),专门介绍了印度太阳神Surya。 Suryanamaskar提供了许多健康益处,例如增强肌肉和帮助控制血糖水平。在这里,MediaPipe库用于分析Surya Namaskar的情况。高级软件可以实时检测到站立,因为人们在相机前表演了Surya Namaskar。班级分隔器将该表格识别为以下一项:pranamasana,hasta padasana,hasta uttanasana,ashwa -Sanchalan Asana,Ashtanga Namaskar,Dandasana或Bhujangasana和Svanasana。基于深度学习的技术(CNN)用于开发该模型,模型精度为98.68%,精度得分为0.75,以检测正确的瑜伽(Surya Namaskar)姿势。使用此方法,用户可以练习所需的姿势,并可以检查该人所做的姿势是否正确。它将有助于正确地做Surya Namaskar的所有不同姿势,并提高瑜伽从业者的效率。本文描述了将在模型中实现的整个框架。
translated by 谷歌翻译
在本文中,我们专注于改进二进制2D实例细分,以帮助人类用多边形标记地面真相数据集。人类的标签只需要在物体周围绘制盒子,然后自动生成多边形。为了有用,我们的系统必须实时运行CPU。二进制实例细分的最常见方法涉及编码器折叠网络。本报告评估了最先进的编码器 - 码头网络,并提出了一种使用这些网络改善实例分割质量的方法。除了网络体系结构的改进之外,我们提出的方法还依靠为网络输入,所谓的极端点(即对象轮廓上的最外部点)提供额外的信息。用户可以几乎尽快给它们标记它们,而不是边界框。边界框也可以从极端点推导。与其他最先进的编码器网络相比,此方法可产生更好的IOU,并且在将其部署在CPU上时也足够快。
translated by 谷歌翻译
我们提出了Panohdr-nerf,这是一种新颖的管道,可随意捕获大型室内场景的合理的全HDR辐射场,而无需精心设计或复杂的捕获协议。首先,用户通过在场景中自由挥舞现成的摄像头来捕获场景的低动态范围(LDR)全向视频。然后,LDR2HDR网络将捕获的LDR帧提升到HDR,随后用于训练定制的NERF ++模型。由此产生的Panohdr-NERF管道可以从场景的任何位置估算完整的HDR全景。通过在一个新的测试数据集上进行各种真实场景的实验,并在训练过程中未见的位置捕获了地面真相HDR辐射,我们表明PanoHDR-NERF可以预测任何场景点的合理辐射。我们还表明,PanoHDR-NERF产生的HDR图像可以合成正确的照明效果,从而可以使用正确点亮的合成对象来增强室内场景。
translated by 谷歌翻译
文本分类在许多真实世界的情况下可能很有用,为最终用户节省了很多时间。但是,构建自定义分类器通常需要编码技能和ML知识,这对许多潜在用户构成了重大障碍。为了提高此障碍,我们介绍了标签侦探,这是一种免费的开源系统,用于标记和创建文本分类器。该系统对于(a)是一个无代码系统是独一无二的分类器在几个小时内,(c)开发用于开发人员进行配置和扩展。通过开放采购标签侦探,我们希望建立一个用户和开发人员社区,以扩大NLP模型的利用率。
translated by 谷歌翻译
我们提出了一种有效的算法,在给定离散的随机变量$ x $和数字$ m $的情况下,计算一个随机变量,其支持最多是$ m $,并且$ x $的kolmogorov距离很小,也是如此单方面的kolmogorov近似。我们介绍了算法的一些变体,分析其正确性和计算复杂性,并介绍了详细的经验评估,以显示它们在实践中的表现。我们检查的主要应用程序是我们进行这项工作的动机,是估计串联平行时间表中缺少截止日期的概率。由于这些概率的精确计算是NP-HARD,因此我们建议使用本文中描述的算法来获得近似值。
translated by 谷歌翻译
多语言语音识别已引起大幅关注,作为补偿低资源语言数据稀缺性的有效方法。端到端(E2E)建模比常规混合系统优选,这主要是由于没有词典要求。但是,在有限的数据方案中,混合DNN-HMM仍然优于E2E模型。此外,手动词典创建的问题已通过公开训练的素式训练型(G2P)(G2P)和多种语言的IPA音译来缓解。在本文中,在低资源语言的多语言设置中提出了一种混合DNN-HMM声学模型的新型方法。针对目标语言语言信号的不同单语言模型的后验分布融合在一起。为每个源目标语言对训练了一个单独的回归神经网络,以将后者从源声学模型转换为目标语言。与ASR培训相比,这些网络需要非常有限的数据。与多语言和单语基线相比,后融合的相对增益分别为14.65%和6.5%。跨语性模型融合表明,无需使用依赖语言的ASR的后代,就可以实现可比的结果。
translated by 谷歌翻译
这项工作介绍了最近开发的参数,非侵入性和多余性降低的建模方法在高维位移和应力场上的应用,这是由于几何分析的结构分析而引起的,这些几何形状分析在离散化和结构拓扑的规模上不同。提出的方法通过将其解决方案分别投射到公共子空间中,利用了歧管对齐方式将不一致的现场输出融合不一致的场输出。该方法的有效性在两个多保真场景上得到了证明,涉及基准翼几何形状的结构分析。结果表明,使用不兼容的网格或相关但不同的拓扑结构的结构模拟输出很容易组合为单个预测模型,从而消除了对数据进行其他预处理的需求。与单性模型相比,新的多保真降低模型以较低的计算成本获得了相对较高的预测精度。
translated by 谷歌翻译
In representative democracy, the electorate is often partitioned into districts with each district electing a representative. Unfortunately, these systems have proven vulnerable to the practice of partisan gerrymandering. As a result, methods for detecting gerrymandered maps were introduced and have led to significant success. However, the question of how to draw district maps in a principled manner remains open with most of the existing literature focusing on optimizing certain properties such as geographical compactness or partisan competitiveness. In this work, we take an alternative approach which seeks to find the most "typical" redistricting map. More precisely, we introduce a family of well-motivated distance measures over redistricting maps. Then, by generating a large collection of maps using sampling techniques, we select the map which minimizes the sum of the distances from the collection, i.e., the most "central" map. We produce scalable, linear-time algorithms and derive sample complexity guarantees. We show that a by-product of our approach is the ability to detect gerrymandered maps as they are found to be outlier maps in terms of distance.
translated by 谷歌翻译